Giảm chiều dữ liệu

Giảm chiều dữ liệu (tiếng Anh: dimensionality reduction, hay dimension reduction), là sự biến đổi dữ liệu từ không gian chiều-cao thành không gian chiều-thấp để biểu diễn ở dạng chiều-thấp đồng thời giữ lại một số thuộc tính có ý nghĩa của dữ liệu gốc, có ý tưởng là gần với chiều nội tại (intrinsic dimension).Phân tích dữ liệu trong không gian chiều-cao có thể khó khăn vì nhiều lý do; dữ liệu thô thường có tính thưa thớt (sparse matrix) là một hậu quả của lời nguyền chiều, và do đó việc phân tích thường khó tính toán; hơn nữa các thuật toán có thể mất rất nhiều thời gian để xử lý dữ liệu. Giảm chiều dữ liệu là phổ biến trong các lĩnh vực có số lượng quan sát lớn và/hoặc số lượng biến lớn, chẳng hạn như xử lý tín hiệu, nhận dạng tiếng nói, thông tin học thần kinh (tin học thần kinh, neuroinformatics), và tin sinh học.[1]Các phương pháp giảm chiều dữ liệu thông thường được chia thành cách tiếp cận tuyến tính và phi tuyến tính.[1] Các cách tiếp cận cũng được chia thành chọn đặc tính (feature selection) và trích chọn đặc trưng (feature extraction).[2] Giảm chiều dữ liệu có thể được sử dụng cho giảm nhiễu (noise reduction), trực quan hóa dữ liệu (data visualization), phân tích cụm, hoặc là một bước trung gian để tạo điều kiện thuận lợi cho các phân tích khác.

Tài liệu tham khảo

WikiPedia: Giảm chiều dữ liệu http://rielac.cujae.edu.cu/index.php/rieac/article... http://jmlr.csail.mit.edu/papers/special/feature03... http://citeseerx.ist.psu.edu/viewdoc/summary?doi=1... http://citeseerx.ist.psu.edu/viewdoc/versions?doi=... http://www.cs.toronto.edu/~roweis/lle http://bioinfo-out.curie.fr/projects/elmap/ //dx.doi.org/10.1007%2F978-1-4615-5725-8_7 //dx.doi.org/10.1109%2FIACC.2016.16 https://books.google.com/books?id=aXC9DwAAQBAJ&pg=... https://members.loria.fr/moberger/Enseignement/AVR...